5 Steps of A/B Testing AB測試的5個步驟

Step One: Define success 想清楚啥叫“成功”

Step Two: Identify bottlenecks 找出使用者卡在哪兒

Step Three: Construct a hypothesis 想出能改善的點

Step Four: Prioritize 選最重要的去做

Step Five: Test 上線測試

Step One：Define Success 定義成功

要想成功開展A/B測試，你需要先回答一個具體的問題：你的網站到底是為了什麼存在？如果你能讓網站在某一方面做得更好，那會是哪方面？“最重要的一個目標”，而非模糊或泛泛地最佳化一切。

如果你對這個問題的答案還不清楚，有一個小技巧可能會幫上忙。想象下面這段對話：

ALICE:"What do you want to achieve with A/B testing?"“你們做測試是想達到啥效果？”

BOB:"We don't know. We don't know what we want our website to do."“我們也不清楚啊。”

ALICE:"Why don't you take it down?"“那乾脆把網站關了？”

BOB:"Of course not! We need our website because it—"“那不行！我們的網站還得——”

然後BOB就會頓悟，意識到網站不是為了“別人有我也得有”，而是真有它的用處。在A/B測試中定義“成功”，就是把你對網站終極目標的回答，轉化為更加明確、可量化的成功指標。

對於電商企業來說，以“每位訪客帶來的收入”來定義成功指標相對簡單。而對於募捐網站來說，可以用“每位訪客的平均捐款額”來作為成功指標。谷歌那邊就會看“跳出率”，也就是使用者開啟搜尋結果後啥都不點就走了。跳出率高可能說明搜尋結果太爛了，但也可能是太好了，使用者一眼就找到答案，不用點。

常見網站的四種典型指標

網站型別	描述	常見轉化 & 彙總目標
電商（E-Commerce）	一個為使用者提供線上購買商品的網站	- 完成購買 - 結賬流程中的每一步 - 加入購物車 - 產品頁面瀏覽量
媒體/內容（Media/Content）	一個專注於文章或其他內容消費的網站	- 頁面瀏覽量 - 文章閱讀量 - 跳出率（在 A/B 測試工具中，常透過使用者是否在頁面上點選來衡量）
潛在客戶獲取（Lead Generation）	一個透過收集姓名等資訊來獲取業務的網站	- 表單填寫完成 - 點選進入表單頁面（如“聯絡我們”）
捐贈（Donation）	一個以收集捐款為目標的網站	- 表單填寫完成 - 點選進入表單頁面（如“傳送捐贈”）

Macroconversions, Microconversions,and Vanity Metrics 宏觀轉化、微觀轉化和虛榮指標

市場專家阿維納什把轉化分成兩種：一種是宏轉化，跟你網站的核心目標直接相關；另一種是微轉化，使用者做的那些小動作。微轉化像點按鈕、看影片、留言這些，雖然沒法立馬帶來收益，但處理好也能帶來間接好處。

要小心那些看起來很好但實際上沒用的資料。舉個例子：一家B2B軟體公司想透過部落格來建立專業形象。他們已經在主網站做了測試，現在想最佳化部落格。主網站的目標很簡單，增加免費試用註冊量。但部落格的目標就不那麼容易衡量了，他們不確定什麼才算成功。

比如標題點選量，這看起來是個不錯的資料，但可能會誤導你。使用者可能只是被誇張的標題吸引才點選，進去後什麼都沒看就離開了。光看點選量並不能反映文章質量。真正有價值的指標是：使用者是否評論、分享、點選底部按鈕，或者是否多次訪問。如果你沒有明確的目標，很容易被那些"好看但沒用"的資料誤導。

Step Two: Identify Bottlenecks 識別瓶頸

團隊得統一目標，搞清楚啥指標才算“成功”。當時大家都覺得放影片最好，直到團隊統一了“有效”的標準，才能做出靠譜的決策。

當你知道了網站要達成什麼目標，接下來就該看資料，找出使用者在哪一步掉隊最嚴重，卡在哪兒出不來了。2007年奧巴馬競選時，我們雖然網站流量不大，但用GA一看漏斗圖，發現了點東西。網站訪問的人不少，廣告投得也行，而且只要拿到郵箱，後面捐款的效果就很好。問題卡在讓人留下郵箱這一步。也就是說，這一步是大機會點，值得重點最佳化。

最後我們拿到了1000萬個郵箱，其中有280萬是透過改版測試額外帶來的。郵箱裡10%的人後來成了志願者，相當於28萬人。最讓人震驚的還是錢，捐款的漲幅太猛了。我們知道有郵箱就能募到錢，所以直覺告訴我們：多拿郵箱，就多拿錢。果不其然，最後多募了5700萬美元。

Step Three: Construct a Hypothesis構建假設

找出瓶頸後，結合對使用者意圖的理解來提出測試假設。可透過訪談、問卷、焦點討論等了解使用者真實想法。

2010年1月，海地遭遇歷史第二嚴重地震。克林頓和小布什成立"海地賑災基金"籌款救援，匆忙搭建的捐款頁面每天吸引數百萬訪問，但人手不足，僅靠一位IT人員支撐。

他們向我們求助。這個高流量、目標明確的頁面是理想的A/B測試物件。我們爭分奪秒，邊測試邊搭建系統。我們選擇"每次頁面瀏覽帶來的捐款金額"作為成功指標，避免捐款轉化率與平均捐款額相互犧牲。我們選這個指標，就是為了直接給組織創造更多價值。

:有了目標，我們就去找頁面上到底哪塊最該動手。卡在哪一步了？為什麼錢沒進來？不是沒人來，是人太多了，網站都快崩了。整個網站其實就一個捐款頁，那問題肯定就出在這個頁面裡頭。原始頁面就是一堆白底空格，看著像填稅表一樣。我們想象了一下使用者的感受，猜他們可能覺得這個頁面太冷、太空、太抽象。

我們猜想，加張災區照片能讓頁面更有溫度，說不定能讓人更想捐錢，也可能捐得更多。

測試結果出人意料,加圖後每次瀏覽的捐款反而減少了。這證明測試前要有明確假設，否則失敗時無法分析原因。若我們盲目嘗試，看到效果不佳就放棄，將錯失學習機會。

進一步分析發現，問題可能是圖片尺寸過大，將捐款表單推到了頁面下方，需要滾動才能看到。我們又想，要是把圖片放到表單旁邊，不擋著它，效果會不會不一樣？這個新測試能讓我們搞清楚問題到底出在哪兒？是圖片害的，還是排版的鍋。

最終結果顯示，這種雙欄佈局帶來的捐款金額不僅遠遠超過了之前那個失敗的“單欄+圖片”版本，更重要的是，它的表現也顯著優於原始版本的表單頁面。最終，這種新的頁面佈局共計為海地額外籌集了超過100萬美元的救援資金。

有了假設，測試才有方向，也才能告訴你答案是不是你想知道的。沒有假設就瞎測，最多看到表面變化，根本學不到真東西。測試本來就會越做越多問題，但只要你有假設，它就能帶你走向下一個更清晰的問題。測試失敗了也沒事，往往正是失敗幫你看清問題在哪兒。

想出有用的假設不簡單，因為使用者的行為太難預料了。不管有多複雜，只要用科學的方法去做測試，你就能越來越瞭解你的使用者。:克林頓基金會的募款負責人說：“這種災難面前，每一秒都關鍵，每一塊錢都重要。”“48小時不到，我們就測試了8個版本，最終多募了102萬美元。”

Step Four: Prioritize 優先排序

當你有了好幾個想試的點，就得用點經驗和判斷，排出優先順序，看哪個改動最可能帶來大提升。凱爾·拉什說：“排測試優先順序時就看一條，哪個測試最賺錢最划算。”理想情況當然是啥都測一遍，但現實里人少、錢少、時間緊，流量也不是無限的。所以你必須選重點，不然啥都想試，最後啥也做不好。

第一次做測試時，還得想辦法爭取老闆和同事支援，也別一上來就搞太複雜的東西。測試要有先後，不是想啥試啥。你得根據三樣東西來決定測不測：你想最佳化的關鍵指標、使用者卡在哪、你覺得他們為啥卡那兒。

Step Five: Test 執行測試

前面都準備好了，現在就差動手開始測試了。你把使用者隨機分組，有人看新版本，有人看舊版本，然後看哪邊表現好，用你設定的標準來比。等你資料量夠了，達到統計標準，你就能知道到底哪個版本更好。

TL;DR 小結

不先定好評判標準，就沒法知道哪個版本贏了。

轉化目標很多，別亂選，要選對你有意義的那個。

看資料 + 靠經驗，一起找出使用者流失的關鍵點。

多瞭解使用者怎麼想，就更容易想出好點子去改東西。

測啥先測啥，得看你覺得哪個最有可能帶來大提升。

動手去測，不斷最佳化，直到你覺得再改也帶不來多少提升了。